比率|传统_Skywalking全链路追踪使用说明

作者：fuchen201101 | 来源：互联网 | 2023-06-04 21:49

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Skywalking全链路追踪使用说明相关的知识，希望对你有一定的参考价值。 1、背景与需求&＃xff1a; 随着业务规模的不断增大&

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Skywalking全链路追踪使用说明相关的知识，希望对你有一定的参考价值。

1、背景与需求&＃xff1a;

随着业务规模的不断增大&＃xff0c;系统的复杂度也越来越高&＃xff0c;我们的软件架构也进入了分布式的阶段&＃xff0c;服务按照不同的维度进行拆分&＃xff0c;那么一次请求可能横跨多个服务模块、项目&＃xff0c;依赖的中间件也越来越多&＃xff0c;其中任何一个节点出现异常&＃xff0c;都可能导致业务出现波动或者异常。而传统的日志监控等方式无法很好满足调用链路跟踪&＃xff0c;排查问题等需求&＃xff0c;这就导致定位/诊断服务异常变得异常复杂。

因此面对复杂的调用链路&＃xff0c;我们需要一款全链路追踪工具&＃xff0c;帮助我们实现如下功能&＃xff0c;提高我们对业务的掌控度&＃xff1a;

&＃xff08;1&＃xff09;功能性需求&＃xff1a;

① 请求链路追踪&＃xff0c;快速定位故障&＃xff0c;缩短故障的排除时间以及判断故障影响范围
② 可视化链路各阶段的耗时&＃xff0c;进行性能分析&＃xff0c;排除业务瓶颈
③ 梳理服务依赖关系以及优化依赖的合理性
④ 系统指标监控&＃xff0c;吞吐量&＃xff08;TPS&＃xff09;、响应时间及错误记录等。

&＃xff08;2&＃xff09;非功能性需求&＃xff1a;

探针的性能消耗&＃xff1a;服务调用埋点本身会带来性能损耗&＃xff0c;这就需要组件对业务系统的性能影响小
代码的侵入性&＃xff1a;对业务系统尽可能少入侵或者无入侵其他&＃xff0c;对于使用方透明&＃xff0c;减少开发人员的负担。

2、Skywalking 简介&＃xff1a;

skywalking 是一个优秀的国产开源APM组件&＃xff0c;是一个对 Java 分布式应用程序集群的业务运行情况进行追踪、告警和分析的系统。2015年由个人吴晟开源 &＃xff0c; 2017年加入Apache孵化器。短短两年就被Apache收入麾下&＃xff0c;实力可见一斑。

skywalking 支持 SpringBoot、SpringCloud、dubbo 集成&＃xff0c;代码无侵入&＃xff0c;通信方式采用 GRPC&＃xff0c;性能较好&＃xff0c;实现方式是 Java 探针&＃xff0c;支持告警&＃xff0c;支持JVM监控&＃xff0c;支持全局调用统计等等&＃xff0c;功能较完善。

3、Skywalking 使用说明&＃xff1a;

3.1、仪表盘&＃xff1a;

仪表盘是Skywalking的首页&＃xff0c;它提供多个指示板来可视化指标&＃xff0c;例如&＃xff1a;服务(APM)、数据库&＃xff08;Database&＃xff09;等等。

3.1.1、APM&＃xff08;服务&＃xff09;&＃xff1a;

APM面板总体分为四个维度&＃xff1a;Global&＃xff08;全局&＃xff09;、Service&＃xff08;服务&＃xff09;、Instance&＃xff08;实例&＃xff09;、Endpoint&＃xff08;API&＃xff09;&＃xff0c;提供筛选功能&＃xff0c;每块都包含一些指标。

&＃xff08;1&＃xff09;Global&＃xff08;全局&＃xff09;指标&＃xff1a;

Services Load&＃xff1a;服务每分钟请求数
Slow Services&＃xff1a;慢响应服务&＃xff0c;按响应时间排序topN&＃xff0c;单位ms
Un-Health Services (Apdex)&＃xff1a;Apdex性能指标&＃xff0c;即服务的不健康值&＃xff0c;1为满分&＃xff0c;Apdex是根据设定的阈值和响应时间综合考虑的衡量标准&＃xff0c;是满意响应时间和不满意响应时间相对于总响应时间的比率&＃xff0c;衡量的是用户对服务的满意程度&＃xff0c;因为传统的指标&＃xff08;如平均响应时间&＃xff09;可能很快就会容易形成偏差。
Slow Endpoints&＃xff1a;慢接口平均响应耗时排序&＃xff0c;单位ms
Global Response Latency&＃xff1a;响应时间百分比&＃xff0c;不同百分比的延时时间&＃xff0c;单位ms。percentile 标签含义&＃xff0c;例如 p99 为 3500ms&＃xff0c;意味着 99% 的请求应该比 3500ms 更快
Global Heatmap&＃xff1a;服务响应时间热力分布图&＃xff0c;根据时间段内不同响应时间的数量显示颜色深度, 颜色越深&＃xff0c;请求越多。

&＃xff08;2&＃xff09;Service&＃xff08;服务&＃xff09;维度&＃xff1a;

Service Apdex 数字&＃xff1a;Apdex性能指标
Service Apdex 折线图&＃xff1a;一段时间的Apdex分数
Service Avg Response Time&＃xff1a;服务平均响应时间
Service Response Time Percentile&＃xff1a;百分比响应延时
Successful Rate&＃xff08;%&＃xff09;数字&＃xff1a;请求成功率
Successful Rate&＃xff08;%&＃xff09;折线图&＃xff1a;一段时间的请求成功率
Service Load&＃xff08;CPM - calls per minute&＃xff09;&＃xff1a;每分钟调用数
Service Load&＃xff08;CPM - calls per minute&＃xff09;&＃xff1a;一段时间的每分钟调用数
Service Instances Load&＃xff08;CPM - calls per minute&＃xff09;&＃xff1a;每个实例每分钟请求数
Slow Service Instance&＃xff1a;每个服务实例平均延时topN
Service Instance Successful Rate&＃xff1a;服务实例的请求成功率 topN

&＃xff08;3&＃xff09;Instance&＃xff08;实例&＃xff09;维度&＃xff1a;

Service Instance Load&＃xff1a;实例每分钟调用数
Service Instance Successful Rate&＃xff1a;实例调用成功比率
Service Instance Latency&＃xff1a;实例响应延时
JVM CPU&＃xff08;Java Service&＃xff09;&＃xff1a;JVM 占用 CPU 百分比
JVM Memory &＃xff08;Java Service&＃xff09;&＃xff1a;JVM内存占用大小&＃xff0c;包含四个指标 instance_jvm_memory_heap&＃xff08;堆内存使用&＃xff09;、instance_jvm_memory_heap_max&＃xff08;最大堆内存&＃xff09;、instance_jvm_memory_noheap&＃xff08;直接内存当前使用&＃xff09;、instance_jvm_memory_noheap_max&＃xff08;最大直接内存&＃xff09;
JVM GC Time&＃xff1a;JVM垃圾回收时间&＃xff0c;包含 young gc 和 old gc
JVM GC Count&＃xff1a;JVM垃圾回收次数&＃xff0c;包含 young gc count 和 old gc count

&＃xff08;4&＃xff09;Endpoint&＃xff08;API&＃xff09;维度&＃xff1a;

Endpoint Load in Current Service&＃xff1a;每个API每分钟请求数
Slow Endpoints in Current Service&＃xff1a;平均响应时间的最慢的topN个API
Successful Rate in Current Service&＃xff1a;每个API的请求成功率
Endpoint Load&＃xff1a;当前API每个时间段的请求数据
Endpoint Avg Response Time&＃xff1a;当前API每个时间段的平均响应时间
Endpoint Response Time Percentile&＃xff1a;当前API每个时间段的响应时间占
Endpoint Successful Rate&＃xff1a;当前API每个时间段的请求成功率

3.1.2、Database&＃xff08;数据库&＃xff09;&＃xff1a;

Database Avg Response Time&＃xff1a;当前数据库平均响应时间
Database Access Successful Rate&＃xff1a;当前数据库访问成功率
Database Traffic&＃xff1a;当前数据库每分钟请求数
Database Access Latency Percentile&＃xff1a;数据库不同响应时间占比
Slow Statements&＃xff1a;当前数据库慢查询TopN
All Database Loads&＃xff1a;所有数据库中请求量排序
Un-Health Databases&＃xff1a;所有数据库不健康排名&＃xff0c;请求成功率排名&＃xff0c;失败最多的请求在最上。

3.2、拓扑图&＃xff1a;

拓扑图可以很直观地展示服务与服务之间的依赖关系&＃xff0c;这对于我们进行服务梳理是非常有帮助的&＃xff0c;并且支持自定义分组&＃xff0c;如下图所示&＃xff0c;就将 ai-search、social-search、social-scan 三个服务自定义一个分组&＃xff0c;并通过拓扑图很直观地展示出三者间的依赖关系&＃xff1a;

除此之外&＃xff0c;拓扑图还能查看服务运行信息进行度量&＃xff0c;包括开发框架类型、服务平均响应时间、吞吐量、百分比响应、Apdex分值、SLA值等

3.3、链路追踪&＃xff1a;

链路追踪可以查看每个接口的调用链&＃xff0c;每个链路耗时、状态&＃xff0c;如果为失败&＃xff0c;还会展示错误信息&＃xff0c;如果是数据库也会展示查询语句&＃xff0c;如果是Redis还会展示操作指令&＃xff0c;另外可以根据追踪id&＃xff08;trace id&＃xff09;进行筛选查询&＃xff1a;

查看数据库操作详情&＃xff1a;

查看Redis缓存操作详情&＃xff1a;

3.4、性能剖析&＃xff1a;

Skywalking 在性能剖析方面非常强大&＃xff0c;提供到基于堆栈的分析结果&＃xff0c;能够让开发人员一看看出调用过程中各个步骤所消耗的时间&＃xff0c;以便进行有针对性的进行优化。

性能剖析通过新建任务&＃xff0c;对不同端点进行采样&＃xff0c;提供更详细的报告&＃xff0c;比如比链路追踪多了线程栈的信息、慢方法提示等等内容。接下来我们就介绍下怎么进行性能剖析&＃xff1a;

&＃xff08;1&＃xff09;新建任务&＃xff1a;

在性能剖析模块 -> 新建任务 -> 选择服务、填写端点、监控时间&＃xff0c;操作如下图&＃xff1a;

备注&＃xff1a;每个服务&＃xff0c;相同时间只能添加一个任务&＃xff0c;且添加的任务不能更改也不能删除&＃xff0c;只能等待过期后自动删除

&＃xff08;2&＃xff09;执行请求&＃xff1a;

多次访问 "/api/searchByWholeOcr" 接口&＃xff0c;然后选择这个任务将会出现监控到的数据&＃xff0c;如下图&＃xff1a;

备注&＃xff1a;需要连续执行多次请求&＃xff0c;因为存在采用设置。如果执行次数少&＃xff0c;可能不会出现采样数据&＃xff0c;也就无法进行分析了

&＃xff08;3&＃xff09;性能剖析&＃xff1a;

上图可以看出&＃xff0c;”/api/searchByWholeOcr“ 接口耗费了681ms&＃xff0c;通过分析详细堆栈信息&＃xff0c;我们可以看到耗时最多的操作就是SearchServiceImpl 类的 executeSearchRequest()方法&＃xff0c;耗费了563ms&＃xff0c;主要是调用 ES 做了全文搜索&＃xff0c;如下图所示&＃xff1a;

推荐阅读

grpc
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
grpc
深入解析浏览器内核与版本的发展历程

浏览器作为我们日常不可或缺的软件工具，其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程，帮助读者更好地理解这一关键技术组件，揭示其内部运作的奥秘。 ... [详细]

蜡笔小新 2024-11-11 13:34:37
grpc
Spring Cloud 学习指南：初学者入门篇

Spring Cloud 学习指南：初学者入门篇 ... [详细]

蜡笔小新 2024-11-11 12:40:04
grpc
阿里巴巴终面技术挑战：如何利用 UDP 实现 TCP 功能？

在阿里巴巴的技术面试中，技术总监曾提出一道关于如何利用 UDP 实现 TCP 功能的问题。当时回答得不够理想，因此事后进行了详细总结。通过与总监的进一步交流，了解到这是一道常见的阿里面试题。面试官的主要目的是考察应聘者对 UDP 和 TCP 在原理上的差异的理解，以及如何通过 UDP 实现类似 TCP 的可靠传输机制。 ... [详细]

蜡笔小新 2024-11-11 11:50:49
grpc
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21
grpc
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
grpc
精选在线API编辑工具推荐

本文将介绍几款优秀的在线API编辑工具，包括它们的功能特点和使用方法，帮助开发者提高工作效率。 ... [详细]

蜡笔小新 2024-11-12 19:10:35
grpc
Java Jigsaw：Java 9的重要特性与Java EE 8及微服务的最新进展

本文最初发表在Thorben Janssen的Java EE博客上，每周都会分享最新的Java新闻和动态。 ... [详细]

蜡笔小新 2024-11-12 18:57:13
process
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
process
MySQL查询执行流程详解

MySQL的查询执行流程涉及多个关键组件，包括连接器、查询缓存、分析器和优化器。在服务层，连接器负责建立与客户端的连接，查询缓存用于存储和检索常用查询结果，以提高性能。分析器则解析SQL语句，生成语法树，而优化器负责选择最优的查询执行计划。这一流程确保了MySQL能够高效地处理各种复杂的查询请求。 ... [详细]

蜡笔小新 2024-11-11 16:48:32
process
Hyperledger Fabric 1.4 节点 SDK 快速入门指南

本文将详细介绍如何利用 Hyperledger Fabric 1.4 的 Node.js SDK 开发应用程序。通过最新版本的 Fabric Node.js SDK，开发者可以更高效地构建和部署基于区块链的应用，实现数据的安全共享和交易处理。文章将涵盖环境配置、SDK 安装、示例代码以及常见问题的解决方法，帮助读者快速上手并掌握核心功能。 ... [详细]

蜡笔小新 2024-11-11 11:02:00
process
深入解析几种常用的Java后端开发框架组合及其应用场景

本文详细探讨了几种常用的Java后端开发框架组合及其具体应用场景。通过对比分析Spring Boot、MyBatis、Hibernate等框架的特点和优势，结合实际项目需求，为开发者提供了选择合适框架组合的参考依据。同时，文章还介绍了这些框架在微服务架构中的应用，帮助读者更好地理解和运用这些技术。 ... [详细]

蜡笔小新 2024-11-11 10:12:51
process
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
process
从月薪8k到38k：Java程序员如何通过系统化学习提升架构能力

回顾过去十多年的开发经历，我在技术能力、培训机会、国际视野以及大型企业的工作经验方面都有了显著的提升。特别是从最初的月薪8k到如今的38k，这一过程中，我深刻体会到系统化学习对提升架构能力的重要性。最初踏入职场时，面对众多未知，我主要依赖团队领导的指导，专注于编写代码、管理数据库和进行测试。随着经验的积累和技术的不断进步，我逐渐意识到，只有通过系统化的学习和实践，才能在技术领域取得更大的突破。 ... [详细]

蜡笔小新 2024-11-10 09:11:27
process
深入解析Java虚拟机的内存分区与管理机制

Java虚拟机的内存分区与管理机制复杂且精细。其中，某些内存区域在虚拟机启动时即创建并持续存在，而另一些则随用户线程的生命周期动态创建和销毁。例如，每个线程都拥有一个独立的程序计数器，确保线程切换后能够准确恢复到之前的执行位置。这种设计不仅提高了多线程环境下的执行效率，还增强了系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 19:53:02

fuchen201101

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章